中文信息处理的研究方法
在自然语言处理的发展过程中,出现过很多不同的研究方法,这些研究方法在中文信息处理的各类任务中同样被广泛地运用着。语言信息处理的研究方法大体可以分为基于规则的方法和基于统计的方法两大类。这两类方法,从本质上看,是众多科学研究中普遍存在的理性主义方法和经验主义方法在自然语言处理中,理性主义方法或者说基于规则的方法,通常以语言学理 论(特别是形式语法理论)为基础,建立基于规则和知识库的逻辑推理系统,此 时是将自然语言理解为符号结构的(宗成庆,2013)。具体说来,基于规则的方法 是通过语言必须遵守的一系列原则来描述语言,以此来判断一个语言现象是遵循 语言原则的还是违反语言原则的。基于规则的方法通常基于乔姆斯基(Avram Noam Chomsky)的语言理论,首先需要在对各种语言现象进行研究的基础上,归 纳出一系列语言规则,然后再形成一套复杂的规则集,用以对自然语言进行分析 处理(郑捷,2017)。而经验主义方法或者说基于统计的方法则以数理统计和信息论为基础,注重从大规模真实文本中发现自然语言规律,实现基于大规模语料库的统计机器学习方法。基于统计的方法来源于多种数学基础,比如信息论、最优化方法、概率图模型、神经网络等。它从概率的角度来审视语言现象,以此判断某种语言现象是否常见。基于统计的方法偏重于对语料库中人们实际使用的普遍语言现象进行统计,以此得到语言现象的统计规律。纵观语言信息处理的发展历程,在很长一段时间内,许多语言处理系统都是基于规则的,也正因为这一点,语言学的研究都是必不可少的基础。基于规则的方法从 20 世纪 60 年代到 80 年代中期,几乎主宰了自然语言处理的研究。随着计算机技术的成熟与进步、信息处理研究的深入,以及应用目标的发展,人们逐渐转向基于统计的方法。统计方法很快便在语音识别、自动分词、词性标注等方面都取得了不俗的成绩。机器学习方法也由此迅速占领了主流舞台,人们纷纷开始基于大规模人工标注的语料样本建立数学模型,通过调试模型的参数使其达到最优,并最终应用于相应的任务中(宗成庆,2016)。随着大数据时代的到来,基于统计的方法更是在自然语言处理领域独领风骚,将基于规则的方法远远地抛在了后面。不过,虽然当前基于统计的方法在整个自然语言处理领域中占据着优势地位,但是我们也并不能完全舍弃基于规则的方法。两种方法往往具有各自适用的领域,它们在整个自然语言处理发展过程中也都发挥了并将继续发挥重要作用,从这一点看,它们并没有严格的优劣之分;而且不论是哪一种方法,首先都要求人自身对自然语言有深入的了解。比如当前不少对自然语言深层知识的统计,一般是建立在经过标注的熟语料库的基础之上的,而从生语料库到熟语料库,其加工与标注仍然依赖于人对于自然语言的知识,也就是规则(詹卫东,2000a)。这两类方法也并非完全对立,基于规则的方法和基于统计的方法也经常互相结合,彼此取长补短,共同改进语言信息处理技术,提升语言信息处理系统的性能。
中文信息处理作为典型的综合性、交叉性学科,涉及不同学科的知识,从事中文信息处理研究的学者也拥有不同的学科背景。来自不同领域的学者在对中文信息处理问题展开研究时,也就形成了不同的研究取向。一般来说,自然语言处理有以下五种研究取向,作为自然语言处理分支学科的中文信息处理,同样适用这五种研究取向。(1)工程主义取向。这一取向主要着眼于计算机应用系统的建立,即意图建立一种可运转的计算机系统。持这种观点的学者会把计算语言学的研究重点放在这种能理解和生成自然语言的计算机系统的结构及各种相应算法的设计上。具体说来,这种类型的自然语言处理研究一般包括三个步骤:第一,数学建模;第二,算法设计;第三,程序实现。这种工程主义取向的计算语言学研究是有很强的应用动机的。因为语言是人类交际和记录信息的工具,如果使计算机获得生成和理解自然语言的能力,那么计算机就能执行只有人类才能完成的工作,诸如翻译、文本处理、信息抽取和检索等。所以,能处理自然语言的计算机系统将使计算机更为有用。通过计算语言学的研究,人们可以开发更多的计算机应用领域。(2)工具主义取向。这种取向主要着眼于利用计算机做语言分析,也就是用计算机来进行语言的计量研究。在这种取向下,利用计算机进行的计量语言学研究往往也容易被包括进来。值得一提的是,在工具主义取向下,随着用计算机来采集、整理、加工和管理语言材料工作的深入开展,语料库语言学这门计算语言学的分支学科逐步形成。语料库语言学一般研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法及语义分析,以及具有上述功能的语料库在语言定量分析、作品风格和作者考证研究、词典编纂、自然语言理解和机器翻译等领域中的运用。所以从方法论上看,语料库语言学跟工程主义的自然语言处理有很大的不同。语料库语言学假定,如果我们能对数量很大的语言数据做出定量化的统计分析,那么我们就能对语言成分的分布和语言成分之间的关系等进行概率性的预测,从而弥补计算机缺乏知识和推理能力的缺点。于是,以语料库为基础的统计模型不仅可以用来解决自然语言的语法标注问题,而且还可以运用到句法、语义等更高层次的分析上来,从而进一步促进应用系统性能的提升。(3)认知主义取向。这种取向主要着眼于人类使用语言时的心理过程,认为可以把计算机作为人类思维的模型,也可以用计算机来模拟人类的认知过程。持这种研究取向的学者喜欢用认知心理学的眼光来看待语言使用。在他们看来,让计算机理解语言的关键是,要能对一般的自然语言的句子做出语义解释,即设计一种一般的内部表示。内部表示是自然语言处理的关键,它影响着系统对语言知识和世界知识的描述和利用,因此也影响着整个处理系统。不同的学者由于对人类处理语言的心理过程的认识不同,因此也会采用不同的理论和方法来建造自然语言处理系统。(4)实证主义取向。这种取向主要着眼于检验语法理论的可靠性,与抱有实用目的的工程主义取向明显不同,在这一取向下,大多数研究并不跟某种特定的应用目标相挂钩,而是另有某种科学研究的目标,例如,用计算机来对语言学家提出的各种语言学理论进行检验,或者把自然语言处理看作理论语言学和计算机技术的桥梁,通过相关工作来沟通语言学理论和计算机技术,来形成语言学技术,从而完成语言学理论在计算机上的应用。在这一过程中,计算机技术和语言学理论无疑是相互影响、相互促进的。这使得计算语言学和理论语言学能够紧密合作,并且产生更为丰硕的成果。(5)逻辑主义取向。这种取向一般着眼于语言学知识的自动发现。一般来说,要建造一个处理自然语言的计算机系统,必须有大量的语言学知识作为基础,但语言学知识的发现工作往往是以手工方式进行的。而在逻辑主义取向下,学者关注的是利用计算机来自动(或辅助)发现语言学知识。利用计算机自动发现语言学知识,可以极大地提高研究的效率,扩大研究的规模,把语言学家从找例句、制卡片、画表格等烦琐的事务中解放出来。这一过程体现着明显的逻辑主义追求,即通过研究语言学知识的发现来探索归纳法的逻辑机制和计算结构(袁毓林,2001)。总的来说,不论以上哪种取向,都属于自然语言处理的范围,只是侧重点会有所不同。
本文摘自刘云、肖辛格著《中文信息处理发展简史》
《中文信息处理发展简史》
刘云、肖辛格 著
北京:科学出版社
(中国语言文学一流学科建设文库)
ISBN 978-7-03- 063843 -4
《中文信息处理发展简史》以中文信息处理的学科发展脉络为线索,介绍了中文信息处理在不同历史时期中的发展情况与主要成果。本书首先简要介绍了中文信息处理学科的基本概况,然后以起步期、发展期、成熟期、繁荣期等不同的历史阶段,分章节对中文信息处理各个历史阶段的发展过程和成果进行了具体阐述。本书以时间为轴,将中文信息处理研究的方方面面介绍给读者,同时也将中文信息处理这一学科从无到有、从小到大、从弱到强的发展过程呈现出来。
向上滑动阅览
目录
序
第一章 绪论 1
第一节 中文信息处理概述 1
一、什么是中文信息处理 1
二、研究中文信息处理的意义 3
第二节 中文信息处理的内容 5
一、中文信息处理的研究范围 5
二、中文信息处理的研究方法 6
三、常见的应用系统 8
第三节 中文信息处理研究的格局 10
一、中文信息处理与相关学科的关系 10
二、中文信息处理的研究取向 11
三、中文信息处理研究的基本历史分期 13
参考文献 14
第二章 中文信息处理的起步期 16
第一节 中文信息处理问题的诞生背景及萌芽 16
一、自然语言处理的理论准备 16
二、自然语言处理的发端 18
三、中文信息处理的萌芽 19
第二节 中文信息处理问题的兴起 22
一、沉寂后的复苏 22
二、汉字信息处理时代的到来 24
三、汉字精密照排系统的发展 27
第三节 汉字编码工作的开展 28
一、汉字编码的基本任务 28
二、字频统计工作的展开 30
三、万“码”奔腾时代的到来 32
四、汉字交换码标准的编制及发展 34
五、汉字编码的国际标准 37
第四节 汉字的输入及输出技术 38
一、键盘输入技术 38
二、汉字自动识别输入 44
三、汉语语音识别输入 47
四、汉字的存储及输出技术 50
第五节 起步期的应用研究及理论探索 55
一、从机器翻译到自然语言理解 55
二、自然语言理解与人机对话 59
三、信息检索及相关技术 61
四、学会组织的建立与发展 63
第六节 小结 65
参考文献 66
第三章 中文信息处理的发展期 70
第一节 “词”处理时代的到来 70
一、“词”处理的基本任务 70
二、词频统计与词表编制 72
第二节 语料库的发展与建设 74
一、统计方法的复苏与语料库的发展 74
二、我国的早期语料库建设 77
第三节 自动分词技术的发展 78
一、自动分词的困境 78
二、自动分词方法的探索 80
三、歧义与未登录词 85
四、自动分词系统的研制 89
五、分词规范的编订 91
六、自动分词技术的评测 93
第四节 词性标注技术的发展 95
一、词性标注与词类划分 95
二、词性标注中的兼类词难题 99
三、词性标注技术的发展 101
第五节 语音处理技术的突破 103
一、隐马尔可夫模型 103
二、语音识别技术的新进展 104
三、语音合成技术 105
第六节 应用研究的发展 109
一、“语言工程”概念的提出 109
二、机器翻译的新发展 110
三、计算机辅助语言教学与测试 112
第七节 小结 114
参考文献 115
第四章 中文信息处理的成熟期 119
第一节 成熟期的基本格局 119
一、统计方法的回归 119
二、从“词”处理到“句”处理 123
三、“句”处理的主要困难 125
第二节 句法分析与语义分析 127
一、句法、语义分析技术的发展背景 127
二、句法分析理论的两大体系 130
三、汉语句法分析方法的探索 134
四、语义资源及语义分析理论的发展 138
五、语义消歧与语义标注 142
第三节 基础资源库建设 147
一、语料库迅猛发展 147
二、大规模语言知识库建设 149
第四节 应用型技术及相关研究 158
一、机器翻译 158
二、网络技术下的新动向 161
第五节 小结 165
参考文献 167
第五章 中文信息处理的繁荣期 171
第一节 研究范式的彻底转向 171
一、从人工神经网络到深度学习 171
二、人工智能与大数据 173
三、语音识别技术的突飞猛进 176
第二节 新时期的中文信息处理 178
一、中文信息处理的新特点 178
二、基于深度学习的中文信息处理研究 180
三、新研究领域的拓展 184
四、应用型技术的百花齐放 186
第三节 深度学习语境下的新挑战 189
一、语言学知识有待回归 189
二、进一步拓展与深化新的应用领域 191
三、与认知科学及脑神经科学相结合 194
四、走向多模态信息处理 197
五、深入国际交流与合作 201
第四节 小结 203
参考文献 205
后记 207
延伸阅读:公益讲座/项目申报/写作与发表/方法工具
1.公益讲座
3月18-24日语言文学讲座/论坛/会议(第42期)
3月17日重磅讲座:胡安江/孙茂松/毛浩然教授等主讲
3月18-24日语言文学讲座/论坛/会议(第42期)
语言文学公益讲座回放集锦(六)
3.写作与发表